We study a multi-agent reinforcement learning (MARL) problem where the agents interact over a given network. The goal of the agents is to cooperatively maximize the average of their entropy-regularized long-term rewards. To overcome the curse of dimensionality and to reduce communication, we propose a Localized Policy Iteration (LPI) algorithm that provably learns a near-globally-optimal policy using only local information. In particular, we show that, despite restricting each agent's attention to only its $\kappa$-hop neighborhood, the agents are able to learn a policy with an optimality gap that decays polynomially in $\kappa$. In addition, we show the finite-sample convergence of LPI to the global optimal policy, which explicitly captures the trade-off between optimality and computational complexity in choosing $\kappa$. Numerical simulations demonstrate the effectiveness of LPI.
translated by 谷歌翻译
实时音乐伴奏的生成在音乐行业(例如音乐教育和现场表演)中具有广泛的应用。但是,自动实时音乐伴奏的产生仍在研究中,并且经常在逻辑延迟和暴露偏见之间取决于权衡。在本文中,我们提出了Song Driver,这是一种无逻辑延迟或暴露偏见的实时音乐伴奏系统。具体而言,Songdriver将一个伴奏的生成任务分为两个阶段:1)安排阶段,其中变压器模型首先安排了和弦,以实时进行输入旋律,并在下一阶段加速了和弦,而不是播放它们。 2)预测阶段,其中CRF模型基于先前缓存的和弦生成了即将到来的旋律的可播放的多轨伴奏。通过这种两相策略,歌手直接生成即将到来的旋律的伴奏,从而达到了零逻辑延迟。此外,在预测时间步的和弦时,歌手是指第一阶段的缓存和弦,而不是其先前的预测,这避免了暴露偏见问题。由于输入长度通常在实时条件下受到限制,因此另一个潜在的问题是长期顺序信息的丢失。为了弥补这一缺点,我们在当前时间步骤作为全球信息之前从长期音乐作品中提取了四个音乐功能。在实验中,我们在一些开源数据集上训练歌手,以及由中国风格的现代流行音乐得分构建的原始\```````'''aisong数据集。结果表明,歌手在客观和主观指标上均优于现有的SOTA(最先进)模型,同时大大降低了物理潜伏期。
translated by 谷歌翻译
风险评分系统已被广泛地部署在许多应用程序中,这些应用程序根据用户的行为序列将风险分数分配给了。尽管许多具有复杂设计的深度学习方法已经取得了令人鼓舞的结果,但由于公平,解释性和合规性考虑,黑框的性质阻碍了他们的应用。在这些敏感情况下,基于规则的系统被认为是可靠的。但是,构建规则系统是劳动密集型的。专家需要从用户行为序列,基于统计数据的设计规则中找到信息统计信息,并为每个规则分配权重。在本文中,我们弥合了有效但黑色框模型与透明规则模型之间的差距。我们提出了一种两阶段的方法Rudi,该方法将黑框教师模型的知识提炼成基于规则的学生模型。我们设计了一种基于蒙特卡洛树搜索的统计生成方法,该方法可以在第一阶段提供一组信息统计信息。然后,通过模仿教师模型的输出,将统计数据与我们提出的神经逻辑网络组成逻辑规则。我们在三个现实世界公共数据集和一个工业数据集上评估了Rudi,以证明其有效性。
translated by 谷歌翻译
用于流量操作和控制的现有数据收集方法通常依赖于基于基础架构的环路探测器或探测器车辆轨迹。连接和自动化的车辆(CAVS)不仅可以报告有关自己的数据,而且可以提供所有检测到的周围车辆的状态。从多个CAVS以及基础设施传感器(例如Lidar)的感知数据集成,即使在非常低的渗透率下也可以提供更丰富的信息。本文旨在开发合作数据收集系统,该系统集成了来自基础架构和CAVS的LiDar Point Cloud数据,以为各种运输应用创建合作感知环境。最新的3D检测模型用于在合并点云中检测车辆。我们在与Carla和Sumo的共模拟平台中测试了具有最大压力自适应信号控制模型的提出的合作感知环境。结果表明,CAV和基础设施传感器的渗透率非常低,足以实现可比性的性能,而连接车辆(CV)的渗透率为30%或更高。我们还显示了不同CAV渗透率下的等效CV渗透率(E-CVPR),以证明合作感知环境的数据收集效率。
translated by 谷歌翻译
多尺度学习框架已被视为一种能够提高语义分割的能力类别。然而,这个问题并不是微不足道的,尤其是对于现实世界的部署,通常需要高效率推理潜伏期。在本文中,我们彻底分析了卷积块的设计(卷积的类型和卷积中的频道数量),以及跨多个尺度的相互作用方式,所有这些都是从轻量级的语义分割的角度来看。通过这样的深入比较,我们综述了三个原则,因此设计了轻巧且逐渐估计的网络(LPS-NET),这些网络以贪婪的方式在新颖地扩展了网络复杂性。从技术上讲,LPS-NET首先利用了建立小型网络的原则。然后,LPS-NET通过扩展单个维度(卷积块的数量,通道数量或输入分辨率)来逐步扩展到较大网络,以实现最佳的速度/准确性交易。在三个数据集上进行的广泛实验始终证明了LPS-NET优于几种有效的语义分割方法。更值得注意的是,我们的LPS-NET在CityScapes测试套装上达到73.4%MIOU,NVIDIA GTX 1080TI的速度为413.5fps,导致绩效提高1.5%,对抗最高的速度为65% - ART STDC。代码可在\ url {https://github.com/yihengzhang-cv/lps-net}中获得。
translated by 谷歌翻译
本文对我们的系统进行了概述和比较分析,该系统专为Sapien Maniskill Challenge挑战2021中的以下两个轨道而设计:无相互作用轨迹:从预采用的演示轨迹中学习政策的无相互作用轨迹目标。我们研究了这两个基于模仿学习的方法,即使用经典监督学习技术模仿观察到的行为,以及基于线之后的基于强化学习的方法。此外,通过基于变压器的网络利用对象和机器人臂的几何结构和纹理结构,以促进模仿学习。无限制轨道:在此轨道中,我们设计了一种基于启发式规则的方法(HRM)来通过将任务分解为一系列子任务来触发高质量对象操作。对于每个子任务,采用简单的基于规则的控制策略来预测可以应用于机器人臂的动作。为了简化系统的实现,所有源代码和预训练的模型均可在\ url {https://github.com/caiqi/silver-bullet-3d/}上获得。
translated by 谷歌翻译
图像变压器最近使用监督(VIT,DEIT等)或自我监督(BEIT,MAE等)预训练技术取得了显着的自然图像理解进展。在本文中,我们提出了\ textbf {dit},一种自我保护的预训练\ textbf {d} ocument \ textbf {i} mage \ textbf {t} ransformer模型,使用大规模的不尺度的文本图像用于文档AI任务,这是必不可少的,因为由于缺乏人类标记的文档图像,因此没有受到监督的同行。我们将DIT作为骨干网络在各种基于视觉的文档AI任务中,包括文档图像分类,文档布局分析,表检测以及OCR的文本检测。实验结果表明,自我监管的预训练的DIT模型可在这些下游任务上实现新的最新结果,例如文档图像分类(91.11 $ \ rightarrow $ 92.69),文档布局分析(91.0 $ \ rightArow $ 94.9),表检测(94.23 $ \ rightArrow $ 96.55)和OCR的文本检测(93.07 $ \ rightarrow $ 94.29)。代码和预培训模型可在\ url {https://aka.ms/msdit}上公开获得。
translated by 谷歌翻译
运动,作为视频中最明显的现象,涉及随时间的变化,对视频表示学习的发展是独一无二的。在本文中,我们提出了问题:特别是对自我监督视频表示学习的运动有多重要。为此,我们撰写了一个二重奏,用于利用对比学习政权的数据增强和特征学习的动作。具体而言,我们介绍了一种以前的对比学习(MCL)方法,其将这种二重奏视为基础。一方面,MCL大写视频中的每个帧的光流量,以在时间上和空间地样本地样本(即,横跨时间的相关帧斑块的序列)作为数据增强。另一方面,MCL进一步将卷积层的梯度图对准来自空间,时间和时空视角的光流程图,以便在特征学习中地进行地面运动信息。在R(2 + 1)D骨架上进行的广泛实验证明了我们MCL的有效性。在UCF101上,在MCL学习的表示上培训的线性分类器实现了81.91%的前1个精度,表现优于6.78%的训练预测。在动力学-400上,MCL在线方案下实现66.62%的前1个精度。代码可在https://github.com/yihengzhang-cv/mcl-motion-focused-contrastive-learning。
translated by 谷歌翻译
由于其有效的模型架构以及大规模未标记的扫描/数字出生的文件的优势,在各种视觉上丰富的文档理解任务中已经证明了文本和布局的预先培训。我们提出了具有新的预培训任务的Layoutlmv2架构,以在单个多模态框架中模拟文本,布局和图像之间的交互。具体地,对于双流多模态变压器编码器,LayOutLMV2不仅使用现有屏蔽的视觉语言建模任务,还使用新的文本图像对齐和文本图像匹配任务,这使得它更好地捕获跨模块交互在预训练阶段。同时,它还将空间感知的自我注意机制集成到变压器架构中,以便模型可以完全理解不同文本块之间的相对位置关系。实验结果表明,LayoutLMV2优于大幅度的LayOutlm,并在大量下游的下游富有的文件理解任务中实现了新的最先进的结果,包括Funsd(0.7895 $ \至0.8420美元),电源线(0.9493 $ \至0.9601美元),Srie(0.9524 $ \至0.9781美元),Kleister-NDA(0.8340 $ \ 0.8520美元),RVL-CDIP(0.9443 $ \至0.9564美元),DOCVQA(0.7295 $ \至0.8672美元) 。我们使我们的模型和代码公开可用于\ url {https://aka.ms/layoutlmv2}。
translated by 谷歌翻译
Artificial Intelligence (AI) is having a tremendous impact across most areas of science. Applications of AI in healthcare have the potential to improve our ability to detect, diagnose, prognose, and intervene on human disease. For AI models to be used clinically, they need to be made safe, reproducible and robust, and the underlying software framework must be aware of the particularities (e.g. geometry, physiology, physics) of medical data being processed. This work introduces MONAI, a freely available, community-supported, and consortium-led PyTorch-based framework for deep learning in healthcare. MONAI extends PyTorch to support medical data, with a particular focus on imaging, and provide purpose-specific AI model architectures, transformations and utilities that streamline the development and deployment of medical AI models. MONAI follows best practices for software-development, providing an easy-to-use, robust, well-documented, and well-tested software framework. MONAI preserves the simple, additive, and compositional approach of its underlying PyTorch libraries. MONAI is being used by and receiving contributions from research, clinical and industrial teams from around the world, who are pursuing applications spanning nearly every aspect of healthcare.
translated by 谷歌翻译